查看原文
其他

提“中国病毒”的群体,是真把它当中性词用吗?

Hanjia Lyu等 复旦发展研究院 2021-04-15


本文为“青年观察栏目的第三篇原创文。坐标美国纽约州罗切斯特市,作者为罗切斯特大学Goergen数据科学中心的复旦校友Hanjia Lyu及其团队成员。在上一篇《“中国病毒” or “新冠病毒”?选择这两种用词的人群有什么区别?》中,作者通过分析推特数据,比较了使用争议性词汇如“中国病毒”或者无争议词汇如“新冠病毒”的群体在人口学特征、用户层面数据、政治追随倾向,与所处地理位置的不同。本文将关注更具争议性的问题:使用“中国病毒”一词的群体,真的是将其当作中性词,不带任何偏见吗?


注:原文“In the Eyes of the Beholder: Sentiment and Topic Analyses on Social Media Use of Neutral and Controversial Terms for COVID-19”的作者为:Long Chen, Hanjia Lyu, Tongyu Yang, Yu Wang, and Jiebo Luo,英文原文发布于arxiv上,详细内容以及数据,读者可以点击“阅读原文”查看。


研究概览


3月16日,美国总统Donald Trump使用推特发布消息时使用“中国病毒”一词指代COVID-19[1]。两天后,在一场白宫新闻发布会上,他强调使用“中国病毒”一词并不带有种族色彩,只是因为病毒来自中国。[2]在社交媒体上,更有一些人士将“中国病毒”一词的用法与“西班牙流感”(Spanish Flu)、“德国风疹”(German Measles)等词汇等同起来[3]强调“中国病毒”是一个中性词汇

 

本文以推特用户发布内容的文本为研究对象,提取文本所带的情绪以及文本所讨论的话题,分析比较使用争议性词汇(如“中国病毒”)的文本和无争议词汇(如“新冠病毒”)的文本的区别。关于详细的背景介绍和文献综述,读者们可以点击“阅读原文”或者阅读本团队上一篇研究《“中国病毒” or “新冠病毒”?选择这两种用词的人群有什么区别?》

 

为方便论述,本文将用“CD”(Controversial term dataset)表示使用争议性词汇的文本,“ND”(Non-controversial term dataset)表示使用无争议性词汇的文本。通过Tweepy API,本文共获取2,607,753条CD推特文本,共69,627,062条ND推特文本,我们从两个组中分别抽样两百万条作为最终的研究数据集。本文使用Latent Dirichlet Allocation (LDA)提取文本话题信息,最终在CD和ND组中分别提取出最重要的5个话题,每个话题包含10个单词,详细的LDA调参过程可以点击“阅读原文”查找。本文使用Linguistic Inquiry and Word Count 2015 (LIWC2015)提取文本所带的作者情绪以及心理层面信息,最终提取出4个总结性语言学变量,以及12个更详细的语言学变量。LIWC2015是一个以预置字典为基础的文本分析工具,通过计算每种类型词汇在一篇文章中出现的频率,它可以反映并捕捉文本的情感,作者心理层面信息,作者的动力,时间(过去、现在、未来)关注度,以及作者所关心的事物信息。


本图文作者在本文中主要负责文本情绪分析,有关文本话题信息的分析留在“阅读原文”供读者查阅。在本图文中,仅给出我们根据LDA模型获得的CD与ND组的话题关键词,如表1。


表1:CD与ND组的前5话题


[1]:https://twitter.com/realdonaldtrump/status/1239685852093169664

[2]:https://www.cnbc.com/2020/03/18/coronavirus-criticism-trump-defends-saying-chinese-virus.html

[3]:https://www.sltrib.com/opinion/commentary/2020/04/02/frances-floresca-it-is/



无争议组用户的语言逻辑性更强,表达更真诚,情绪相对更积极?


图1显示的是CD和ND组文本在4项总结性语言学变量的得分。CD和ND组在Clout一项的得分相近。一个较高的Clout得分代表这个作者在写下这些文字的时候更多的是站在一个专业的角度 [1] 。与此同时,ND组的Analytical thinking、Authentic以及Emotional tones得分比CD组都更高。Analytical thinking得分反映的是文本的逻辑性,一个较高的Analytical thinking分数意味着该文本更正式、更有逻辑 [1]。Authentic分数越高意味作者在写下这些文字的时候表达更为真诚 [1] 。CD和ND组的Emotional tones的得分都比50低,意味着两个组的文本主要情绪基调都是负面的 [1],然而我们仍旧可以发现一些细微的差异。ND组的文本相对CD组的文本更积极正面。

图1:CD与ND组总结性语言学变量.

图2:CD与ND组详细语言学变量得分.


无争议组用户更关注自己未来的行为,争议组用户更关注别人现在或过去的行为


图2显示的是CD与ND组更为详细的12个语言学变量的得分。“future-oriented”和“past-oriented”分数通过分析作者使用的动词时态,来反映作者对时间点的关注 [2]。ND组的文字显示作者更关注未来,而CD组的文字显示作者更关注过去。为了更好地理解这两项分数的差异,本文采取了和Gunsch et al. [3]类似的研究方法。本文进一步提取了另外5项语言学变量,包括4项人称代词的使用占比分数,以及1项时间点关注度分数。CD与ND组这5项分数的情况如表1。CD组的文本显示的更多的是other-reference (“they”),而ND组的文本显示的更多的是self-reference (“i”, “we”)。两个组在“she/he”一项的得分相近。对于现在的关注度,CD组得分比ND组更高。以上的发现与Gunsch et al. [3]的发现类似,由此我们可以推测出,CD组的文本更关注其他人在现在或过去的举动上,而ND组的文本更关注自己在未来的举动。

表2:“i”, “we”, “she/he”, “they” 以及present-orientation得分.


无争议组用户表现出更多的悲伤与焦虑,争议组用户表现出更多的愤怒

现有的研究发现LIWC可以识别出作者在书写时表达的情绪 [2]。从上文的分析中我们发现,CD与ND组文本表达的主要情绪是负面的,其中ND组文本表达的情绪相对正面。这与我们在图2中更详细的语言学变量 – “positive emotions” 与 “negative emotions”的发现是一致的。然而,我们仍旧在更为细致的”sadness”, “anxiety” 与 “anger”的变量中发现了微妙的差别。当人们在提及COVID-19时,ND组的文本表现出更多的悲伤与焦虑,然而CD组的文本表现出更多的愤怒。


无争议组用户的文本着重描述事实,争议组用户的文本着重表达想法

“tentativeness”与”certainty”两项语言学变量的得分反映的是作者所经历的事件的发展程度,比方说是事件已经告一段落,亦或是事件正在不断演变 [2]。在文本中,如果较多地使用“always“或者”never“这类型的词汇,会产生一个较高的”certainty”分数;如果较多地使用”maybe”或者”perhaps“这种词汇,文本则会产生一个较高地”tentativeness“分数 [1]。在CD组的文本中,我们观察到了更高的”certainty“和”tentativeness“分数,然而ND组文本的这两项得分都相对更低。对于这个微妙的区别,本文有一个有趣的猜想。从1986年开始,Pennebaker et al. [1]开始从不同的文本范畴下收集语言样本,包括博客、expressive writing、小说、日常对话、纽约时报、以及推特。他们将LIWC应用于这些样本,与本文一样提取出了这些语言学变量的得分。在他们的发现中,纽约时报文本的”tentativeness”与”certainty”分数都是最低的。然而博客、expressive writing、以及日常对话的这两项语言学变量的分数都相对较高。我们的猜想与这一发现相关:CD组的文本更类似博客、expressive writing或者日常对话,更关注表达想法,而ND组的文本更类似于像纽约时报的新闻报道,着重描述客观事实。


无争议组用户表现出更强烈的对成功的需求

McClelland [4]发现人们在描述时使用的词汇会反映出个人需求,“achievement“的分数便是通过计算该类词汇的使用频率来反映作者对于”achievement“的需求。ND组文本的”achievement“分数比CD组文本的分数更高。关于这一发现的假设是,这一分数的偏高,可能反映了ND组用户对于战胜COVID-19疫情的更强烈的心理需求。


无争议组用户相对争议组用户而言更关注工作及金钱话题

关于个人所关注的事物,ND组文本的“work“与”money“分数更高。ND组的用户更关注工作及金钱话题。有关工作的讨论不仅是在家办公所带来的工作状态的改变,也有很大一部分是有关失业率的上升。




参考文献:

[1] J. W. Pennebaker, R. L. Boyd, K. Jordan, and K. Blackburn,“The development and psychometric properties of liwc2015,”Tech. Rep., 2015.

[2] Y.  R.  Tausczik  and  J.  W.  Pennebaker,  “The  psychologicalmeaning of words: Liwc and computerized text analysis meth-ods,”Journal of language and social psychology,  vol.  29,no. 1, pp. 24–54, 2010.

[3] M.  A.  Gunsch,  S.  Brownlow,  S.  E.  Haynes,  and  Z.  Mabe,“Differential  forms  linguistic  content  of  various  of  politicaladvertising,”Journal of Broadcasting & Electronic Media,vol. 44, no. 1, pp. 27–42, 2000.

[4] D. C. McClelland, “Inhibited power motivation and high bloodpressure  in  men.,”Journal of Abnormal Psychology,  vol.  88,no. 2, p. 182, 1979.





微信编辑 | 潘弘林



往期回顾


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存